Temporal difference learning

Il temporal difference (TD) learning, ovvero l'apprendimento mediante differenza temporale, indica una classe di metodi di reinforcement learning che basano il proprio apprendimento sul bootstrap dalla stima corrente della funzione obiettivo: questi metodi campionano dall'ambiente, così come il Metodo Monte Carlo, ma eseguono gli aggiornamenti della funzione di valore di stato basandosi sulle stime correnti, come avviene, invece, nella programmazione dinamica.

A differenza dei metodi Monte Carlo che modificano le loro stime solo quando il risultato finale è noto, questi metodi di distanza temporale adattano le proprie previsioni in modo dinamico, così da avere previsioni sul futuro più accurate, prima ancora che il risultato finale sia a disposizione^[1]. Questa è, appunto, una forma di bootstrap, come si evince dal seguente esempio^[1]:

"Supponi di voler prevedere il tempo per sabato e di avere un modello che prevede il tempo di sabato, avendo a disposizione il clima di ogni giorno della settimana. Di norma, aspetteresti fino a sabato e solo allora aggiusterai tutti i tuoi modelli. Tuttavia, quando è, ad esempio, venerdì, dovresti già avere una buona idea di come potrebbe essere il tempo sabato - e quindi essere in grado di cambiare, diciamo, il modello di sabato prima dell'arrivo di sabato".

I metodi di differenza temporale sono in stretta correlazione al modello di differenza temporale dell'apprendimento animale^[2]^[3]^[4]^[5]^[6].

^ ^a ^b Richard Sutton, Learning to predict by the methods of temporal differences, in Machine Learning, vol. 3, n. 1, 1988, pp. 9–44, DOI:10.1007/BF00115009. (A revised version is available on Richard Sutton's publication page Archiviato il 30 marzo 2017 in Internet Archive.)
^ Schultz, W, Dayan, P & Montague, PR., A neural substrate of prediction and reward, in Science, vol. 275, n. 5306, 1997, pp. 1593–1599, DOI:10.1126/science.275.5306.1593, PMID 9054347.
^ P. R. Montague, P. Dayan e T. J. Sejnowski, A framework for mesencephalic dopamine systems based on predictive Hebbian learning (PDF), in The Journal of Neuroscience, vol. 16, n. 5, 1º marzo 1996, pp. 1936–1947, DOI:10.1523/JNEUROSCI.16-05-01936.1996, PMID 8774460.
^ P.R. Montague, P. Dayan e S.J. Nowlan, Using aperiodic reinforcement for directed self-organization (PDF), in Advances in Neural Information Processing Systems, vol. 5, 1993, pp. 969–976.
^ P. R. Montague e T. J. Sejnowski, The predictive brain: temporal coincidence and temporal order in synaptic learning mechanisms, in Learning & Memory, vol. 1, n. 1, 1994, pp. 1–33, PMID 10467583.
^ T.J. Sejnowski, P. Dayan e P.R. Montague, Predictive hebbian learning, in Proceedings of Eighth ACM Conference on Computational Learning Theory, 1995, pp. 15–18, DOI:10.1145/230000/225300/p15-sejnowski.

[RSutton-1988-1] Richard Sutton, Learning to predict by the methods of temporal differences, in Machine Learning, vol. 3, n. 1, 1988, pp. 9–44, DOI:10.1007/BF00115009. (A revised version is available on Richard Sutton's publication page Archiviato il 30 marzo 2017 in Internet Archive.)

[WSchultz-1997-2] Schultz, W, Dayan, P & Montague, PR., A neural substrate of prediction and reward, in Science, vol. 275, n. 5306, 1997, pp. 1593–1599, DOI:10.1126/science.275.5306.1593, PMID 9054347.

[:0-3] P. R. Montague, P. Dayan e T. J. Sejnowski, A framework for mesencephalic dopamine systems based on predictive Hebbian learning (PDF), in The Journal of Neuroscience, vol. 16, n. 5, 1º marzo 1996, pp. 1936–1947, DOI:10.1523/JNEUROSCI.16-05-01936.1996, PMID 8774460.

[:1-4] P.R. Montague, P. Dayan e S.J. Nowlan, Using aperiodic reinforcement for directed self-organization (PDF), in Advances in Neural Information Processing Systems, vol. 5, 1993, pp. 969–976.

[:2-5] P. R. Montague e T. J. Sejnowski, The predictive brain: temporal coincidence and temporal order in synaptic learning mechanisms, in Learning & Memory, vol. 1, n. 1, 1994, pp. 1–33, PMID 10467583.

[:3-6] T.J. Sejnowski, P. Dayan e P.R. Montague, Predictive hebbian learning, in Proceedings of Eighth ACM Conference on Computational Learning Theory, 1995, pp. 15–18, DOI:10.1145/230000/225300/p15-sejnowski.

[1]

[2]

[3]

[4]

[5]

[6]